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摘要 : 【 目的 】 通 过 基于 维基 百科 的 特征 扩展 解决 由 于 不 同类 型 文献 而 产生 的 特征 不 匹配 等 问题 ,以 提高 文本 分 
类 效果 。[ 方法 】 在 特征 扩展 之 前 , 对 TF-IDF 加 以 改进 , 提出 并 使 用 一 种 新 的 特征 选择 方法 CDFmax-IDF 获得 候 
选 词 集 ; 在 使 用 维基 百科 进行 特征 扩展 时 , 通过 分 别 计算 直接 链接 关系 、 类 别 关 系 、 间 接 链接 关系 三 类 词语 间 关 
系 并 进行 融合 得 到 词语 间 的 语义 相关 度 实现 特征 扩展 ; 针对 扩展 得 到 的 特征 ,提出 一 种 改进 的 LDA 概率 主题 模 


型 wLDA 模型 进行 文本 建 模 。[ 结果 】 本 文 提出 的 方法 分 别 在 朴素 贝 叶 鞭 


、KNN 和 SVM 三 种 分 类 器 上 实现 分 


类 ,其 marco-Fl 和 micro-F1 分 别提 升 1.6%-2.8% 和 1.4%-2.7%。[ 局 限 】 尚 未 考虑 特征 词 本 身 及 特征 词 间 的 相互 
联系 ， 比 如 特征 词 本 身 的 词性 、 出 现在 单 篇 文档 中 的 位 置 、 特 征 词 间 的 共 现 关系 等 因素 对 特征 词 权重 的 影响 .【 结 
论 】 通 过 多 种 对 比 研 究 证 明了 使 用 基于 维基 百科 的 特征 扩展 方法 对 特征 词 扩 展 的 有 效 性 , 提高 了 多 种 类 型 文献 


的 自动 分 类 效果 。 
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1 引 言 


多 种 类 型 文献 是 指 包 含 了 图 书 、 期 刊 、 网 页 、 博 
客 等 各 种 传统 和 当前 流行 的 社交 媒体 等 形式 的 文献 。 
从 信息 管理 领域 来 看 , 数字 图 书馆 是 一 种 新 型 图 书馆 ， 
它 既 具有 传统 图 书馆 在 信息 整合 、 组 织 管理 上 的 优势 ， 
又 同时 可 以 对 来 自 网 络 的 新 兴 文 本 资源 (如 新 闻 网 页 、 
博客 微 博 等 ) 进 行 整 理 收 集 与 分 类 管理 中 从 大 数据 领 
域 看 ,其 最 大 特点 之 一 就 是 数据 类 型 的 多 样 化 ; 除了 
数值 型 数据 之 外 ,还 包含 图 书 、 期 刊 、 网 页 、 博 客 等 
形式 的 文本 数据 。 因 此 , 不 管 是 传统 意义 上 的 信息 资 
源 管理 研究 , 还 是 当下 最 前 沿 的 大 数据 分 析 ， 其 对 象 
都 包括 了 多 种 类 型 文献 。 

以 多 种 类 型 文献 为 研究 对 象 时 , 一 个 突出 的 问题 


是 不 同类 型 文献 之 间 对 同一 事物 或 主题 使 用 不 同 的 词 
汇 或 特征 进行 描述 、 产 生 语义 上 的 差异 ， 由 此 导致 研 
究 结 果 的 不 正确 。 例 如 ,网 页 中 通常 使 用 的 “电脑 "可 
能 被 大 数据 分 析 为 是 与 学 术 论文 中 的 “计算 机 ”不 同 的 
事物 或 主题 。 本 文 以 自动 分 类 为 手段 , 通过 分 类 效果 
的 客观 比较 , 找 出 解决 多 种 类 型 文献 之 间 语 义 差 异 的 
有 效 途 径 。 并 提出 一 种 基于 特征 扩展 的 多 种 类 型 文献 
自动 分 类 方法 , 通过 解决 不 同类 型 文献 间 自 动 分 类 时 
出 现 的 特征 不 匹配 问题 从 而 消除 上 述 的 语义 差异 ， 
提升 多 种 类 型 文献 自动 分 类 的 效果 。 


2 研究 现状 及 意义 


2.1 研究 现状 
面 对 高 速 增长 的 海量 网 络 信息 资源 , 传统 的 手工 
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分 类 和 基于 专家 系统 或 知识 库 的 半自动 分 类 方法 不 
能 有 效 地 对 其 进行 分 类 与 组 织 , 尤其 是 面 对 互 联网 
中 多 种 类 型 的 文本 信息 ， 如 何 有 效 地 对 多 种 类 型 的 
信息 资源 进行 有 效 组 织 和 管理 ;这 对 当前 的 自动 文 
本 分 类 技术 提出 更 高 的 要 求 握 。 在 自动 文本 分 类 的 研 
究 领 域 中 ,已 有 相关 研究 分 别 以 图 书 书目 信息 作为 
训练 集 、 网 页 新 闻 文 本 作为 测 斌 集中， 以 期 刊 论文 作 
为 训练 集 ， 以 期 刊 论文 、 网 页 和 图 书 等 三 种 类 型 文 
献 作 为 测试 集 外 ， 以 CiteSeer 中 的 英文 研究 论文 、 学 
术 报 告 等 多 种 类 型 文本 资源 分 别 作 为 训练 集 和 测试 
集 外 ,开展 多 种 文献 类 型 的 自动 分 类 研究 。 但 是 , 这 
些 研 究 对 不 同类 型 文献 之 间 可 能 存在 的 语义 差异 未 
加 考虑 。 

维基 百科 是 目前 全 球 最 大 的 在 线 协作 式 百 科 全 
书 , 常常 作为 第 三 方 知识 库 引 入 到 研究 之 中 ,作为 词 
汇 或 特征 的 语义 扩展 研究 中 的 桥梁 被 使 用 。 文 献 [6] 以 
维基 百科 作为 第 三 方 知识 库 进行 特征 扩展 , 使 原本 只 
包含 较 少 数量 的 特征 的 短文 本 得 以 使 用 语义 相近 的 更 
多 数量 的 特征 加 以 表达 ， 从 而 解决 短文 本 分 类 中 存在 
的 特征 稀 芍 等 问题 ,其 实验 结果 证 明了 维基 百科 在 中 
文 文本 语义 扩展 上 的 有 效 性 。 文 献 [7] 首 先 使 用 LDA 
(Latent Dirichlet Allocation) 模 型 外 对 英文 文本 建 模 并 
获得 特征 词 , 再 使 用 维基 百科 对 所 抽象 出 来 的 特征 词 
进行 语义 扩展 。 文 献 [9] 使 用 维基 百科 在 来 自 新 闻 组 和 
讨论 组 等 两 种 不 同 的 英文 语 料 之 间 建 立 语义 关系 开展 
分 类 ， 两 项 研究 均 通 过 实验 在 一 定 程度 上 提高 了 分 类 
效果 。 因 此 , 维基 百科 可 以 有 效 地 用 于 解决 文本 中 语 
义 扩展 或 语义 差异 等 问题 。 

文献 [10] 将 维基 百科 作为 第 三 方 知识 库 , 将 其 应 
用 到 不 同类 型 的 中 文 文献 的 自动 分 类 之 中 , 通过 将 来 
自 不 同类 型 文献 、 语 义 相 近 但 所 使 用 的 词汇 不 同 的 特 
征 之 间 进 行 扩展 和 匹配 ,在 一 定 程度 上 提高 了 分 类 效 
果 。 但 是 , 该 文献 的 研究 内 容 有 三 个 方面 值得 探讨 。 

(1) 采用 传统 的 TF-IDF 方法 选择 特征 词 ; 传统 的 
TF-IDF 是 一 种 基本 的 特征 选择 方法 、 得 到 广泛 的 使 用 ; 
然而 , 对 该 方法 本 身 有 许多 研究 并 在 不 断 改 进 W…, 值 
得 借鉴 。 

(2) 使 用 向 量 空间 模型 (Vector Space Model, VSM) 
进行 文本 建 模 ; VSM 是 一 种 基本 的 文本 表示 模型 、 得 
到 广泛 的 应 用 ; 然而 VSM 将 所 有 的 特征 词 看 作 是 相 
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互 独立 的 , 无 法 解决 同义词 、 近 义 词 等 语义 问题 ; 而 
LDA 模型 可 以 对 文本 建 模 并 有 效 挖掘 文本 中 的 语义 
信息 , 已 经 广泛 用 于 包括 文本 分 类 在 内 的 各 个 领域 ， 
并 取得 较 好 的 分 类 效果 号 ， 可 以 考虑 将 其 替代 VSM 
用 于 不 同类 型 文献 自动 分 类 时 的 文本 表示 模型 。 

(3) 在 使 用 维基 百科 计算 词语 相似 度 时 ， 主 要 使 
用 了 直接 链接 关系 、 类 别 关 系 、 间 接 链接 关系 等 三 类 
词语 间 关 系 ,， 其中, 类 别 关 系 和 间接 链接 关系 分 别 借 
鉴 了 其 他 论文 中 的 计算 方法 ， 相 对 比较 复杂 ， 有 进 一 
步 简 化 的 可 能 。 

为 适应 不 同 领域 或 学 科 的 多 种 类 型 文献 之 间 可 能 
存在 的 语义 差异 , 本文 在 三 个 方面 开展 了 与 文献 [10] 
不 同 的 研究 , 希望 提供 与 文献 [10] 不 尽 相 同 的 解决 途 
径 。 在 特征 选择 方面 , 对 传统 TF-IDF 公式 进行 改进 ， 
引入 类 间 育 集 度 和 类 内 分 散 度 两 个 概念 ,得 到 改进 的 
CDFmax-IDF 公式 进行 特征 选择 ; 在 基于 维基 百科 的 相 
关 度 计算 方法 方面 , 对 类 别 关 系 和 间接 链接 关系 使 用 
简洁 的 Jaccard 相似 系数 公式 计算 , 并 对 融合 公式 进 一 
步 优化 ; 使 用 LDA 模型 代替 VSM 进行 文本 建 模 , 将 
LDA 的 权重 更 新 公式 改进 为 可 以 对 非 整 数 进行 训练 ， 
从 而 得 到 wLDA 模型 ， 进 行文 本 表示 。 

2.2 ”研究 意义 

随 着 网 络 数字 资源 的 急剧 增加 ， 以 数字 资源 为 对 
象 的 各 种 研究 和 应 用 ,例如 ,大 数据 分 析 数字 资源 分 
类 等 向 各 个 领域 快速 普及 。 以 数字 资源 为 研究 对 象 时 ， 
主要 问题 在 于 不 同类 型 间 的 文献 存在 一 定 的 语义 差 
异 ， 比 如 在 描述 同一 事物 时 ,图书 期 刊 等 类 型 的 文献 
偏向 于 使 用 事物 的 学 名 或 规范 名 称 , 而 新 闻 网 页 等 类 
型 的 文献 偏向 于 使 用 事物 的 俗称 或 常用 名 , 这 就 导致 
了 在 进行 文本 建 模 时 会 出 现 特征 不 匹配 的 问题 ， 而 文 
本 建 模 是 大 数据 分 析 、 数 字 资 源 分 类 的 前 提 和 基础 ， 
不 解决 语义 差异 的 问题 , 意味 着 文本 建 模 不 能 反映 大 
数据 分 析 的 对 象 和 数字 资源 分 类 的 对 象 的 实际 , 必然 
会 影响 大 数据 分 析 和 数字 资源 分 类 的 结果 。 本 研究 通 
过 借助 第 三 方 知识 库 来 消除 不 同文 献 类 型 文本 间 的 语 
义 差 异 ， 从 而 提升 多 种 类 型 文献 的 自动 分 类 效果 ,有 
助 于 在 大 数据 环境 下 对 多 种 类 型 文献 进行 良好 的 建 
模 ， 以 实现 各 种 新 兴 类 型 和 传统 类 型 文献 资源 的 分 
析 、 组 织 与 整理 工作 。 本 文 在 这 样 的 背景 下 进行 选 题 
并 开展 研究 ， 因此 具有 和 较 高 的 理论 及 实用 价值 。 


3 ”基于 维基 百科 的 多 种 类 型 文本 分 类 方法 


本 文大 致 分 为 以 下 步骤 进行 : 对 TF-IDF 加 以 改 
进 , 提出 并 使 用 一 种 新 的 特征 选择 方法 CDF,-IDF 获 
得 特征 扩展 候选 词 集 ; 基于 特征 扩展 候选 词 集 ， 对 测 
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图 1 


3.1 基于 TF-IDF 特征 选择 方法 的 改进 

TF-IDF 特征 选择 方法 综合 考虑 词 频 和 逆 文 档 频 
率 两 个 因素 , 认为 某 特征 词 在 文档 中 出 现 的 次 数 越 多 ， 
且 只 在 很 少 的 文档 中 出 现 , 说 明 该 特征 就 越 重要 站。 
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试 集 文本 使 用 维基 百科 中 的 语义 相似 度 计算 进行 特征 
扩展 ; 针对 扩展 得 到 的 带 权 特征 ， 提 出 一 种 改进 的 
LDA 概率 主题 模型 wLDA 模型 进行 文本 建 模 。 其 框架 
如 图 1 所 示 。 


基于 改进 的 wLDA 
模型 进行 建 模 


文本 分 类 


py 蓉 


基于 维基 百科 的 多 种 类 型 文本 分 类 方法 框架 


率 的 类 间 聚 集 度 。 

类 间 聚 集 度 和 类 内 分 散 度 主要 从 特征 词 在 类 别 间 
以 及 类 别 内 分 布 情况 的 角度 进行 特征 权重 的 考量 , 元 
服 了 传统 TF-IDF 在 计算 特征 权重 时 没有 综合 考虑 类 


但 是 传统 的 TF-IDF 由 于 未 考虑 特征 的 分 布 情况 而 未 
能 选择 出 更 具 代 表 性 特征 。 文 献 [11] 针 对 传统 TF-IDF 
的 不 足 ， 提出 类 间 分 散 度 和 类 内 分 散 度 两 个 概念 并 将 
其 与 传统 TF-IDF 相 结 合 ,对 基于 TF-IDF 的 特征 加 权 
算法 进行 改进 ; 文献 [12] 引 入 类 间 集 中 度 和 类 内 分 散 
度 两 个 重要 概念 , 并 对 文献 [11] 中 的 公式 进行 重新 定 
义 , 主要 区 别 在 于 计算 时 仅 使 用 特征 项 的 文档 频率 作 
为 唯一 参数 , 减少 了 计算 的 复杂 程度 ， 且 通过 实验 验 
证 其 与 文献 [11] 方 法 同样 可 以 选择 出 更 具 类 别 区 分 能 
力 的 特征 。 最 后 ， 再 结合 频 度 因素 提出 一 种 改进 的 基 
于 TF-IDF 的 特征 加 权 算 法 。 该 算法 认为 如 果 某 一 个 
特征 项 的 频 度 越 高 、 在 类 别 间 分 布 越 聚集 且 在 类 别 内 
分 布 越 分 散 , 那么 该 特征 对 文本 类 别 的 区 分 作用 就 越 
大 ， 即 分 辨 度 越 强 。 文 献 [13] 将 文献 [12] 的 方法 应 用 到 
LDA 主题 模型 中 , 进一步 验证 了 文献 [12] 提 出 的 改进 
的 TF-IDF 特征 加 权 算 法 的 有 效 性 。 但 是 , 文献 [12-13] 
在 计算 类 间 聚 集 度 时 ,由 于 使 用 的 是 文档 频率 而 未 能 
反映 出 特征 频 度 。 因 此 ， 本文 在 保留 文献 [12-13] 的 类 
间 聚 集 度 和 类 内 分 散 度 两 个 概念 的 基础 上 , 使 用 基于 
特征 词 频 的 类 间 聚 集 度 代 蔡 文 献 [12-13] 中 基于 文档 频 


间 、 类 内 特征 分 布 所 存在 的 不 足 。 而 基于 特征 词 频 的 
类 间 聚 集 度 不 仅 可 以 反映 类 别 间 的 分 布 情况 ,还 可 以 
反映 出 频 度 信息 。 所 以 本 文 在 最 终 改 进 的 TF-IDF 中 
去 掉 了 特征 词 频 坊 六 这样 有 助 于 降低 算法 的 计算 复 
杂 度 。 通 过 引入 基于 特征 词 频 的 类 间 上 聚集 度 和 类 内 分 
散 度 两 个 参数 ， 本文 提出 一 种 改进 的 CDFw。y-IDF 特征 
选择 算法 ,其 计算 公式 如 下 : 


CDF ， -IDFCO= max(IC, (OID,0): i 
DY dD+e 
i=] 
(1) 
其 中 ,表示 总 类 别 数 , |D| 表 示 文 本 集中 文档 总 数 ， 
以 (0 表示 在 第 i 个 类 别 中 特征 词 上 的 文档 频数 ，s 为 平 
滑 因子 ，7CD 表 示 类 别 Ci; 下 特征 词 t 的 基于 特征 词 频 
的 类 间 聚 集 度 ，7D 人 0 表示 类 别 C 下 特征 词 t 的 类 内 分 
散 度 ， 对 其 乘积 结果 按 类 别 取 最 大 值 。 
3.2 ”基于 维基 百科 的 特征 扩展 方法 
(1) 基于 维基 百科 的 语义 相关 度 计算 
OD 直接 链接 关系 
维基 百科 中 的 任意 一 个 概念 的 解释 页 面 中 存在 大 量 其 
他 概念 的 引用 ， 引 用 概念 和 被 引用 概念 之 间 往 往 存 在 极 强 
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的 相关 性 ， 因 此 概念 间 是 否 存 在 链接 关系 通常 被 作为 衡量 
概念 间 相 关 度 的 一 项 重要 指标 09。 如 果 概念 石 的 解释 页 面 中 
含有 概念 二 的 链接 ， 则 称 概念 11 是 概念 的 链 入 链接 或 概念 
bb 是 概念 的 链 出 链接 。 此 时 ， 若 概念 二 也 是 11 的 链 入 链接 ， 
则 称 概念 看 与 概念 之 间 存 在 双 链 接 关 系 , 反之 则 称 为 单 链 
接 关 系 。 

@) 链 接 相 关 度 

链接 相关 度 是 通过 衡量 维基 百科 中 任意 两 项 概念 拥有 
共同 链 入 、 链 出 概念 的 数量 及 其 相互 间 的 履 盖 程度 来 确定 的 
概念 间 的 相关 度 。 维 基 百 科 中 的 每 一 项 概念 都 拥有 两 个 相关 
的 链接 集合 一 一 链 出 概念 集 和 链 入 概念 集 ， 分别 是 由 该 概念 
的 链 出 概念 和 链 入 概念 构成 。 利 用 Jaccard 相似 系数 可 以 很 
容易 地 衡量 两 个 集合 之 间 的 相似 性 0 其 计算 公式 如 下 : 
I4Na| 
[4U| 

其 中 , 4、B 分 别 代表 两 个 集合 。 4 门 B 表 示 A4、B 两 集 
合 的 交集 ; 4UB 表 示 4、B 两 集合 的 并 集 。 

本 文 基于 Jaccard 相似 系数 计算 两 个 维基 概念 的 链接 相 
关 度 。 首 先 分 别 从 维基 百科 中 查找 出 概念 1 的 链 入 概念 集 和 
链 出 概念 集 : 

inlinks(t) = {inlink, ,inlink,, ,inlink,s,***} 

outlinks(t) = {outlink,!, outlink,,, outlink,3,***} © 

通常 认为 一 个 概念 的 链 入 概念 和 链 出 概念 都 是 该 概念 
的 相关 概念 ， 即 链 入 概念 集 和 链 出 概念 集 都 具有 概念 表征 
能 力 ， 因 此 基于 Jaccard 相似 系数 得 到 的 概念 链接 相关 度 计 
算 公式 如 下 : 


JS(4,B) = 


(2) 


linlinks(t) Ninlinks(t,)| 
Simjny (i,t;) = CQ 十 
linlinks(t) VU inlinks(t,)| 


loutlinks(t) (Noutlinks(i, )| 
loutlinks(t,) U outlinks(t, )| 
其 中 ，Q 和 是 权重 参数 ,满足 atf-1， 本文 利用 其 计算 
概念 间 相关 度 时 ,认为 链 入 概念 集 和 链 出 概念 集 拥有 同样 
的 表征 , 故 选取 Qo=f0.5。 
@ 类 目 相 关 度 计算 
由 于 维基 百科 中 的 任意 一 项 概念 都 至 少 属于 一 个 类 目 
下 , 换 句 话说 , 每 一 个 维基 概念 都 会 拥有 一 个 属于 它 的 所 属 
类 目 集 : 
categories(t) = {catego1Ji1 Catego1Jjp ,catego1 
(5) 
因此 ,同样 可 以 利用 Jaccard 相似 系数 计算 方法 实现 两 
个 概念 间 类 目 相关 度 的 计算 , 但 值得 注意 的 是 ， 在 维基 百科 
中 的 类 目 存在 包含 与 被 包含 的 关系 ， 且 层级 越 高 的 类 目 往 
往 拥 有 更 多 的 从 属 概念 ， 所 以 不 能 直接 使 用 Jaccard 相似 系 
数 表征 两 个 概念 间 的 类 目 相关 度 。 本 文 在 计算 类 目 相关 度 
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时 ,对 Jaccard 相似 系数 进行 加 权 改 进 ， 以 此 平衡 不 同 层级 
类 目 在 计算 相关 度 时 的 权重 问题 ,其 具体 计算 公式 如 下 : 


categories(t; ) (Ncategories (£;) 
weight(c) 
C 
categories(t; )Ucategories(t 2 


weight(c) (0) 


Simcare 全 ? 万 ) 二 


C 


1 
weight(c) = 


其 中 , n。 代 表 类 目 c 的 从 属 概念 数量 ， 即 用 类 目的 从 属 
概念 数量 的 倒数 替代 原始 公式 中 的 类 目 本 身 ， 从 而 对 
Jaccard 相似 度 计算 公式 进行 加 权 , 这 么 做 可 以 让 共同 从 属 
于 较 低 层级 类 目的 两 概念 之 间 获 得 更 高 的 相关 度 计 算 结 果 。 

@ 概 念 相关 度 计算 

概念 相关 度 计算 是 指 对 任意 两 个 存在 于 维基 百科 中 的 
概念 ， 通过 定义 一 个 合理 的 计算 公式 以 准确 度量 两 个 概念 
间 的 语义 相关 度 ,， 并且 要 求 该 相关 度 计算 结果 高 的 概念 间 
需要 能 够 从 很 大 程度 上 说 明 这 两 个 概念 具有 非常 紧密 的 语 
义 联系 或 通常 在 描述 同一 特定 领域 时 共 现 PIH。 综合 考虑 上 述 
概念 之 间 的 三 种 关系 的 相关 度 计 算 公 式 ， 本 文 提 出 一 种 新 
的 概念 相关 度 方 法 : 

Sim(ti,t) = max(O(@ :Si (ti,ty) + Br: simaell ,ty )),l) 
NX 三 ; 访 存 在 双 链 接 关系 

B(x, ，)=」 7Pxz 证 厂 存在 单 链接 关系 (0 
X 性, 访 不 存在 链接 关系 


其 中 , o、/[ 为 可 调 参 数 ， 且 axHB-1， 用 来 调节 链接 相关 度 
与 类 目 相 关 度 的 参考 权重 。6(x) 是 关于 概念 看 、 访 直接 链接 
关系 的 示 性 函数 ， 系 数 1 、7 思 取 值 大 于 1, 代表 对 拥有 直接 
链接 关系 的 两 项 维基 概念 的 相关 度 计 算 结果 进行 不 同 程度 
的 加 权 , 这样 能 尽 可 能 保证 拥有 直接 链接 关系 的 概念 能 够 
被 准确 赋予 更 高 的 相关 度 。 

(2) 基于 语义 相关 度 的 特征 扩展 方法 

基于 语义 相关 度 的 特征 扩展 方法 主要 步骤 如 下 : 

@ 对 整个 文本 集中 的 文本 进行 分 词 、 词 性 过 滤 、 停 用 词 
过 滤 等 操作 ; 

@ 对 训练 集 文 本 进行 特征 选择 , 得 到 特征 扩展 候选 词 集 ; 

@ 对 测试 集中 的 每 一 篇 文档 利用 提出 的 基于 维基 百 
科 的 相关 度 计算 方法 , 依次 计算 其 与 特征 扩展 候选 词 集中 
各 特征 词 的 相关 度 ， 完成 特征 扩展 。 
3.3 基于 wLDA 模型 的 文本 分 类 方法 

(1) 标准 LDA 模型 

LDA 模型 是 Blei 在 PLSI 模型 的 基础 上 , 引入 贝 
叶 斯 思想 后 提出 的 一 种 全 新 的 概率 生成 模型 。 LDA 模 
型 在 文本 生成 模型 中 引入 了 多 项 分 布 的 共 轿 先 验 分 布 


一 一 狄 里 克 雷 (Dirichlet) 分 布 ， 从 而 构建 了 一 个 从 词 到 
主题 , 再 从 主题 到 文档 的 三 层 结构 概率 文本 表示 模 
型 。LDA 主题 模型 的 概率 模型 图 的 如 图 2 所 示 。 


nel[l,N,] 


= me[l, M 
， 图 2 LDA 主题 模型 的 概率 模型 图 

其 中 ，M 表示 文档 总 数 ，N,, 表示 第 m 篇 文档 中 存 
在 入 个 特征 词 ，2, 代表 文档 -主题 的 概率 分 布 ，pk 
代表 了 主题 - 词 的 概率 分 布 , K 表示 主题 总 个 数 ，c 和 
分 别 是 两 个 分 布 的 超 参数 ，Z,, , 是 由 分 布 0 生成 
的 第 m 篇 文档 中 第 n 个 词 即 ww， 的 所 属 主题 。 

(2) LDA 主题 模型 的 求解 及 评价 

@D 模 型 求解 

LDA 模型 通常 采用 吉 布 斯 采样 方式 估计 特征 词 @ 和 主 
题 z 的 后 验 分 布 。 吉 布 斯 采样 的 计算 公式 四 为 : 


nt) ， + CO ng + DO 


mi 


“了 
全 
7=1 


P(2i = 大 | 


W) cc 


一 7 


人 Mr> 


1 


~ 
外 


8 
人 
Ki 时 特征 词 编 号 的 主题 分 布 ，nM9,,n 四 ,分 别 代表 第 m 篇 
文档 中 主题 的 频数 以 及 主题 上 中 特征 词 1 的 频数 。 
根据 狄 里 克 雷 分 布 的 参数 估计 公式 可 得 : 


k k) 
6 nd + a 
mk 

2 st 0) 

/j=l 

(9) 

| nO + BO 
Pr = V 

Pi +B") 

/j=l 


6 分别 代 表 第 m 篇 文档 中 选取 主题 有 的 概率 估计 
以 及 主题 上 中 选取 特征 词 ! 的 概率 估计 。 

@@) 模 型 评价 

LDA 主题 模型 本 质 上 是 一 种 文本 聚 类 算法 ， 所 以 在 利 
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用 LDA 进行 文本 建 模 的 时 候 ， 需 要 事先 指定 主题 数 ， 常 用 
的 指标 有 主题 相似 度 P、 困 惑 度 C9 等 ， 本 研究 将 选择 困惑 度 
作为 确定 最 优 主题 数 的 方法 。 随 着 主题 数 的 逐渐 增 大 ,困惑 
度 会 一 直 减 小 , 但 最 终 其 值 会 趋 于 平稳 。 因 此 通过 综合 考虑 
困惑 度 和 主题 数 的 比率 ， 可 以 在 合理 范围 内 选取 最 合适 的 
主题 数 ， 得 到 最 优 的 文本 概率 模型 。 

(3) 改进 的 LDA 模型 

标准 LDA 主题 模型 在 通过 吉 布 斯 采样 训练 模型 
参数 的 时 候 ， 是 利用 特征 词 的 频数 对 参数 进行 迭代 更 
新 , 这样 会 使 文档 的 主题 明显 倾向 于 高 频 词 的 主题 分 
布 ， 从 而 影响 分 类 效果 。 另 一 方面 ,根据 上 文 所 述 的 特 
征 扩展 方法 得 到 的 扩展 词 以 [0,1] 的 相关 度 被 扩展 到 文 
本 集中 、 形 成 带 有 权 值 的 扩展 特征 ,， 这样 的 参数 更 新 
方式 并 不 能 对 这 些 带 有 权 值 的 扩展 特征 进行 吉 布 斯 采 
样 ,因此 有 必要 对 标准 LDA 模型 的 求解 方式 进行 改 
进 , 改进 后 的 吉 布 斯 采样 公式 为 : 
(0 


mi 


天 . 
Dweight(nt),) + a) 
j=1 


(Kk) 


weight(n,)+o 


plzi =k|z, De 


i? 


(10) 
weight(n®) ,)+ B® 


(weight(n(D,) + BO 
j=1 

利用 改进 的 weight-LDA( 简 称 wLDA) 模 型 ， 可 以 
对 特征 扩展 后 的 文本 进行 主题 建 模 ， 从 而 使 用 分 类 算 
法 进行 文本 分 类 。 

(4) 基于 wLDA 模型 的 分 类 流程 

结合 前 文 的 特征 扩展 方法 , 本 文 提出 结合 特征 扩 
展 和 改进 的 wLDA 主题 模型 的 文本 分 类 算法 , 其 具体 
流程 如 下 : 

中 对 训练 集 和 测试 集 的 文本 进行 分 词 、 词 性 过 滤 、 停 用 
词 过 滤 等 操作 ; 

@ 对 训练 集 文 本 进行 初步 统计 ， 通 过 本 文 提出 的 
CDFsx-IDF 特征 选择 算法 筛选 出 特征 扩展 候选 词 集 ， 并 通 
过 维基 词典 进行 过 滤 ， 即 选取 在 维基 百科 中 能 找到 对 应 概 
念 的 特征 词 ; 

图 针对 测试 集中 的 每 一 篇 文档 ,利用 基于 维基 百科 的 
相关 度 计 算 方法 依次 计算 文档 中 的 每 一 项 特征 词 和 特征 扩 
展 候 选 词 集中 每 一 项 特征 词 的 相关 度 ， 将 相关 度 大 于 某 一 
阅 值 的 特征 词 扩展 到 测试 集 文 本 中 ,形成 包含 带 有 权 值 的 
扩展 特征 的 新 测试 集 文本 ; 

@ 使 用 常见 的 几 种 分 类 算法 对 训练 集 建 模 ， 对 测试 集 
进行 分 类 并 评价 分 类 效果 。 
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4 实验 及 结果 分 析 


4.1 实验 准备 

本 实验 利用 期 刊 论文 为 主 的 文献 信息 构成 训练 
语 料 , 对 以 新 闻 网 页 为 主要 类 型 的 文献 信息 进行 分 类 
实验 , 实现 多 种 文献 类 型 的 文本 自动 分 类 。 为 使 实验 
过 程 与 结果 满足 公开 原则 与 可 复 现 性 , 本 文 实验 所 用 
语 料 全 部 取 自 复旦 大 学 中 文 语料库 C5 和 搜狗 互联 网 语 
料 库 F4,， 其 中 复旦 语料库 以 期 刊 文 本 和 学 术 论文 为 主 ， 
搜狗 语料库 主要 由 新 闻 网 页 文本 组 成 。 本 实验 选取 复 
且 语 料 库 与 搜狗 语料库 中 共有 的 经 济 、 体 育 、 环 境 三 
个 类 别 语 料 各 800 篇 , 其 中 复旦 语料库 中 各 抽取 500 
篇 组 成 训练 语 料 ( 共 1 500 篇 ), 搜狗 语料库 中 各 抽取 
300 篇 组 成 测试 语 料 ( 共 900 篇 ), 为 避免 随机 干扰 项 对 
实验 结果 造成 影响 , 在 公开 语 料 集 上 利用 多 次 随机 抽 
取 的 文本 集 进行 实验 , 对 实验 数据 取 平均 值 作为 最 终 
的 实验 结果 。 

4.2 ”实验 设计 

(1) LDA 主题 模型 中 最 优 主 题 数 的 确定 :其 基本 过 
程 为 对 训练 集 在 不 同 主题 数 下 进行 多 次 LDA 主题 建 
模 , 并 分 别 计算 其 困惑 度 ,， 再 根据 困惑 度 的 变化 趋势 
确定 最 合理 的 主题 个 数 。 

(2) 扩展 特征 语义 相关 度 计算 结果 的 考量 。 本 文 解 
决 多 种 文献 类 型 文本 分 类 的 主要 思路 是 通过 特征 扩展 来 
消除 训练 集 与 测试 集 间 的 语义 差异 , 而 特征 扩展 的 核心 
则 是 计算 特征 间 的 语义 相关 度 , 但 对 语义 相关 度 计算 结 
果 的 考量 并 没有 一 种 权威 的 测度 方式 ,因此 将 随机 抽取 
几 组 特征 的 语义 相关 度 计 算 结果 , 通过 人 工 审查 的 方式 
对 计算 结果 是 否 合理 做 出 合理 的 定性 判断 。 

(3) 本 文 分 类 方法 分 类 结果 的 对 比 验证 。 为 了 验 
证 本 文 提 出 的 基于 特征 选择 的 多 种 文献 类 型 文本 自动 
分 类 方法 的 有 效 性 , 通过 在 多 种 经 典 的 自动 分 类 算法 
上 进行 分 类 实验 , 分 别 对 是 否 使 用 本 文 提出 的 分 类 方 
法 的 分 类 效果 进行 比较 分 析 ， 从 而 论证 本 文 提出 的 改 
进 方法 的 可 行 性 和 有 效 性 。 
4.3 ”实验 结果 及 分 析 

(1) 最 优 主 题 数 的 确定 

本 文 使 用 困惑 度 来 确定 LDA 模型 的 最 优 主 题 数 ， 
使 用 吉 布 斯 采样 法 求解 LDA 模 型 的 参数 ,其 中 超 参数 
a、B 根据 经 验 分 别 设置 为 50/t(t 为 主题 数 ) 和 0.01， 对 
训练 集 迁 代 次 数 为 1 000 次 。 本 实验 中 对 主题 数 进行 
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从 10 到 150 的 预 设 (梯度 为 10) 分 别 计 算 该 主题 数 下 的 
困惑 度 , 绘制 成 趋势 图 如 图 3 所 示 。 
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图 3 训练 集 在 LDA 模型 下 的 主题 数 变化 趋势 


由 图 3 可 知 ,困惑 度 随 着 主题 数 逐 渐 增 大 而 下 
降 ， 且 下 降 趋 势 逐 渐 平 稳 ， 本 文选 取 困 惑 度 下 降 趋势 
明显 放 缓 的 第 一 个 拐点 作为 本 实验 中 LDA 模型 的 最 
优 主题 数 ， 因 此 选取 120 作为 后 续 LDA 建 模 的 最 优 
主题 数 。 

(2) 扩展 特征 语义 相关 度 计算 结 

特征 扩展 是 本 文 解决 多 种 文献 类 型 文本 分 类 方 
法 的 核心 环节 ， 而 语义 相关 度 计算 结果 的 准确 与 否 是 
决定 特征 扩展 最 终 效果 的 直接 影响 因素 。 在 进行 特征 
扩展 前 ， 先 分 别 使 用 TF-IDF 方法 和 本 文 提出 的 
CDFmax-IDF 特征 选择 方法 从 训练 集中 提取 特征 扩展 
候选 词 集 。 表 1 为 一 次 实验 中 使 用 TF-IDF 特征 选择 
方法 提取 的 候选 词 集 ( 取 前 45 个 特征 词 )。 

表 1 基于 TF-IDF 方法 的 特征 扩展 候选 词 集 

关键 词 
发 展 、 市 场 、 浓 度 、 社 会 、 政 府 、 产 业 、 

改革 、 增 长 、 投 资 、 我 国 、 土 壤 、 国 有 、 消 费 、 制 度 、 地 区 、 
吸附 、 技 术 、 图 、 结 构 、 政 策 、 中 国 、 工 业 、 降 解 、 专 业 、 


农村 、 资 本 、 水 、 管 理 、 菌 、 国 家 、 农 业 、 知 识 、 污 泥 、 生 
产 、 要、 研究 、 产 品 、 教 育 、 环 境 、 体 制 、 氧 、 人 、…… 


经 济 、 体 育 、 企 业 、 
投 


使 用 传统 TF-IDF 方法 进行 特征 选择 得 到 的 候选 
词 集中 存在 许多 诸如 “中 国 >、“ 要 ”*”、“ 人 ”这 类 相对 高 
频 但 却 不 具有 类 别 区 分 能 力 的 特征 词 ， 如 果 将 这 类 特 
征 词 作为 候选 词 会 在 特征 扩展 的 同时 引入 大 量 的 “ 噪 
声 ” 而 影响 分 类 结果 。 表 2 是 则 使 用 本 文 提出 的 
CDFnmax-IDF 特征 选择 方法 提取 的 候选 词 集 (每 个 类 各 
取 前 15 个 特征 词 ), 通过 对 比 可 以 说 明 本 文 提出 的 特 
征 选 择 方法 的 有 效 性 。 


表 2 基于 CDF-IDEF 的 特征 扩展 候选 词 集 

类 别 关键 词 

资本 、 经 济 增长 、 企 业 、 经 济 发 展 、 市 场 、 政 策 、 金 

经 济 ” 融 、 人 和 价格、 投资、 增长、 资金、 国民 经 济 、 利 益 、 劳 

动力 、 市 场 经 济 、……… 

。 比赛 、 队 、 体育、 运动 员 、 冠 军 、 选 手 、 成 绩 、 队 员 、 

女子 、 速 率 、 决 赛 、 训 练 、 胜 、 力 量 、 中 国 队 、…… 

环境 科学 、 浓 度 、 中 国 环境 、scientiae、 水 、 污 染 、 

环境 “污染 物化 学 .温度 .试验 .生物 .离子 含量 pollution、 
监测 、 


表 2 对 筛选 得 到 的 类 别 关 键 词 进行 了 类 别 区 分 , 
便于 观察 特征 词 是 CDFu-IDF 计算 结果 取 最 大 值 时 
的 所 属 类 别 以 及 其 类 别 归 属 本 身 的 合理 性 。 在 实际 实 
验 过 程 中 利用 关键 词 集 进 行 特征 扩展 时 是 不 区 分 其 所 
属 类 别 的 ， 而 是 将 所 有 关键 词汇 总 在 一 起 不 作 区 分 地 
计算 语义 相关 度 并 与 闷 值 进行 比较 确定 是 否 被 扩展 。 
表 3 是 一 次 实验 中 对 待 分 类 文本 的 几 个 特征 词 进行 特 
征 扩 展 时 得 到 的 语义 相关 度 计 算 结 果 。 

表 3 语义 相似 度 计 算 结 果 
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民 ” 这 样 只 有 具备 相当 领域 背景 知识 才能 正确 识别 和 
处 理 的 相关 特征 词 进行 扩展 。 
通过 以 上 分 析 可 以 证 明 本 文 提 出 的 基于 维基 百科 
的 特征 扩展 方法 确实 能 够 对 待 分 类 文本 进行 恰当 的 特 
征 扩展 处 理 , 接 下 来 再 通过 分 析 对 比 最 终 的 分 类 实验 
结果 论述 特征 扩展 后 得 到 的 新 的 待 分 类 文本 可 以 更 容 
易 地 被 正确 自动 分 类 。 

(3) 本 研究 分 类 方法 的 对 比 验 证 

为 了 验证 本 文 提 出 的 基于 特征 选择 的 多 种 文献 类 
型 文本 自动 分 类 方法 的 有 效 性 , 通过 在 三 种 经 典 的 自 
动 分 类 算法 (K 最 近邻 算法 、 朴 素 贝 叶 斯 算法 、 支 持 向 
量 机 算法 ) 上 进行 分 类 实验 , 分 别 比较 是 否 使 用 本 文 提 
出 的 分 类 方法 的 效果 ,如 图 4 和 图 5 所 示 。 


% 


= yp A 
EE 

E 7 -= 
2 

E 70 


特征 词 扩展 特征 词 及 语义 相关 度 一 一 传统 方法 
Be 交易 :0.102 金融 市 场 :0.211 劳动 力 市 场 :0.212 i 
市 场 批发 .0 224 一 CDFmax-IDF&LDA | 
0 一 和 CDFmax-IDF&wLDA 
股东 股票 市 场 :0.146 
资金 :0.111 增长 率 :0.136 市 场 化 :0.108 图 4 三 种 分 类 算法 上 的 micro-F1l 分 类 结果 对 比 
净利 润 
负债 :0.172 
女排 排球 :1.000 75 
王 宝 泉 囊 伟 民 :0.115 人 4 ee 
73 
亚军 冠军 :0.709 金牌 :0.106 银牌 :0.274 
环境 监测 。 污染 :0.346 污染 物 :0.100 富 营养 化 :0.148 了 2 
凝固 莹 发 :0.288 ey 
污 i 汪 沪 . 生 渤 渤 沙 . 
污水 处 理 “水质 :0.173 水 污染 :0.357 生活 污水 :0.112 | 
一 * 一 传统 方法 71:3 72.1 71.5 
表 3 从 三 个 类 中 各 列举 了 三 个 特征 词 扩展 结果 作 一 TF-IDF&wLDA TI 72.3 70.8 
、 、 os 网 一 生 - CDF,， -IDF&LDA 72.4 73.5 71.9 
为 代表 , 不 难看 出 扩展 得 到 的 特征 词 确实 与 原 特 征 词 CDF IDF&WLDA 741 743 7311 
具备 很 强 的 语义 关联 ， 如 和 “市场” 与 “交易 *"、“ 人 金融 市 
图 5 三 种 分 类 算法 上 的 macro-Fl 分 类 结果 对 比 


场 " “劳动 力 市 场 ” 等 。 与 此 同时 也 可 以 充分 反映 出 不 
同 扩展 特征 词 与 原 特征 词 间 的 关联 强 弱 差异 ， 比 如 
“亚军 ”与 “冠军 ”“ 金 牌 ”"“ 银 牌 ”" 间 的 语义 相关 度 为 “ 冠 
军 ”> “银牌 >> “金牌 ”, 这 基本 符合 一 般 认 知 。 因 此 ， 
利用 维基 百科 进行 的 语义 相关 度 计算 方法 ,不仅 能 对 
互 为 同义词 、 近 义 词 的 特征 词 进行 扩展 ,还 能 利用 维 
基 百 科 中 列 含 的 领域 知识 ,将 类 似 “ 王 宝 录 ?与 “ 袁 伟 


根据 图 4、 5 展示 的 实验 结果 ,分别 使 用 
macro-Fl 和 micro-F1l 两 种 评价 指标 对 本 研究 中 涉及 的 
对 比 实 验 进行 评价 。 在 三 种 经 典 分 类 算法 上 分 别 比 较 
特征 扩展 前 后 的 分 类 结果 ， 其 中 朴素 贝 叶 斯 算法 的 平 
均 表 现 最 好 , macro-F1 和 micro-F1 在 使 用 本 文 改 进 的 
特征 扩展 方法 后 准确 率 分 别 达 到 了 74.3% 和 72.8%， 
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较 未 进行 扩展 的 结果 分 别提 升 了 2.2% 和 1.4%; 而 在 
使 用 了 本 文 提 出 的 改进 方法 后 使 用 KNN 算法 进行 分 
类 的 marco-Fl 和 micro-F1 分 别提 升 了 2.8% 和 2.7%,， 
是 三 种 分 类 算法 中 提升 最 为 明显 的 ; 在 使 用 SVM 算 
法 的 分 类 结果 上 , 本 文 提出 的 特征 扩展 方法 marco-F1 
和 micro-Fl 分 别提 升 了 1.6% 和 1.7%。 同 时 为 证 明 本 
文 提出 改进 的 特征 选择 方法 和 wLDA 主题 模型 的 有 效 
性 ,还 分 别 设置 了 TF-IDF&wLDA 方法 及 CDFwax- 
IDF&LDA 方法 的 对 照 组 进行 实验 , 结果 表明 本 文 提 
出 的 新 的 文本 分 类 方法 均 优 于 另外 两 种 只 进行 其 中 一 
种 改进 的 分 类 方法 。 综 上 , 本 文 提 出 的 基于 特征 扩展 的 
多 种 类 型 文献 自动 分 类 方法 是 可 行 且 有 效 的 。 


S 结 语 


本 文 提出 一 种 基于 特征 扩展 的 多 种 类 型 文献 分 
类 方法 , 通过 利用 维基 百科 作为 第 三 方 知识 库 消除 不 
同文 献 类 型 文本 间 的 语义 差异 , 由 此 提高 多 种 类 型 文 
献 混合 自动 分 类 的 分 类 效果 。 针 对 传统 TF-IDF 的 不 
足 , 对 TF-IDF 加 以 改进 , 提出 并 使 用 一 种 新 的 特征 选 
择 方法 CDFwa-IDF 获得 特征 扩展 候选 词 集 ; 在 使 用 维 
基 百 科 进 行 特征 扩展 时 , 通过 分 别 计算 直接 链接 关 
系 、 类 别 关 系 、 间 接 链接 关系 三 类 词语 间 关 系 并 进行 
融合 得 到 词语 间 的 语义 相关 度 进行 特征 扩展 ; 针对 扩 
展 得 到 的 带 有 权 值 的 特征 , 提出 一 种 改进 的 LDA 概率 
主题 模型 wLDA 模型 进行 文本 建 模 ,使 特征 词 被 赋予 
了 不 同 权重 , 提高 了 LDA 模型 本 身 的 精度 和 准确 性 。 

本 文通 过 实验 论证 了 提出 的 基于 维基 百科 的 特征 
扩展 方法 能 在 一 定 程度 上 提高 多 种 类 型 文献 自动 分 类 
的 分 类 效果 , 但 本 方法 实际 上 还 存在 诸多 局 限 性 ， 比 
如 改进 后 的 CDFwax-IDF 特征 选择 方法 虽然 在 继承 了 
TF-IDF 优点 的 基础 上 又 综合 考虑 了 特征 词 在 各 个 类 
别 中 出 现 的 分 布 和 在 整个 文档 集中 出 现 的 文档 频次 ， 
但 缺乏 对 特征 词 本 身 及 特征 词 间 的 相互 联系 的 充分 考 
虑 ， 比 如 特征 词 本 身 的 词性 、 出 现在 单 篇 文档 中 的 位 
置 、 特 征 词 间 的 共 现 关系 等 , 这些 都 能 对 特征 词 的 权重 
起 到 一 定 的 度量 作用 , 可 予以 适当 考虑 。 此 外 , 将 本 方 
法 应 用 于 英文 语 料 也 是 一 个 需要 检验 的 课题 。 
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Automatic Classification of Documents from Wikipedia 


Li Xiangdong"” Ruan Tao: Liu Kang! 
!(School of Information Management, Wuhan University, Wuhan 430072, China) 
2(Center for Electronic Commerce Research and Development, Wuhan University, Wuhan 430072, China) 


Abstract: [Objective] This paper aims to improve the performance of text classification systems with the help of 
Wikipedia’s feature expansion function. [Methods] First, we established the CDF'ax-IDF method based on the modified 
TF-IDF, which helped retrieve the candidate word list. Then, we used the Wikipedia to extend the document features 
and calculated the relationship among direct links, categories and indirect links, which decided the semantic relevance 
of the words. Finally, we proposed an improved LDA model, the wLDA, for the extended feature and text modeling. 
[Results] The proposed method improved the value of marco-Fl and micro-Fl on Naive Bayes, KNN and SVM 
classifiers by 1.6%-2.8% and 1.4%-2.7%. [Limitations] We did not include the properties of the words and relationship 
among them. [Conclusions] The feature expansion method based on the Wikipedia improves the effectiveness of 
automatic document classification methods. 

Keywords: Various Types of Documents Text Classification Feature Selection Feature Expansion 
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直布罗陀 国家 档案 馆 与 Preservica 合作 进行 数字 资源 长 期 保存 


近日 , 直布罗陀 国家 档案 馆 (Gibraltar National Archives, GNA) 宣 布 与 Preservica 合作 , 保存 并 保护 该 国 广 泛 收集 的 历史 数 
字 资 源 。 通 过 使 用 Preservica 的 数字 保存 软件 和 协同 工作 方法 , GNA 的 历史 记录 可 以 安全 地 存储 几 十 年 供 未 来 多 代 后 人 使 用 。 

2014 年 GNA 重新 命名 后 , 创建 了 一 个 网 站 , 并 升级 成 为 21 世纪 流行 的 存储 库 , 储存 内 容 包 含 物理 的 、 数 字 的 和 原生 数 
字 的 记录 。 下 一 步 是 进行 长 期 保存 , 需要 选择 一 个 系统 ， 对 归档 的 、 有 长 期 保存 价值 的 、 从 纸 质 记录 转换 而 成 的 数字 记录 进 
行 永久 的 保存 和 保护 。 这 些 数字 档案 包括 数 千 个 二 次 世界 大 战 撤离 记录 , 1502 年 直布罗陀 的 图 像 ， 几 幅 世 界 名 画 和 重要 制图 。 

直布罗陀 首席 副 部 长 Joseph Garcia 博士 说 : “我 们 的 国家 档案 馆 里 的 档案 是 至 关 重 要 的 ,， 它 记录 了 直布罗陀 作为 一 个 国 
家 的 历史 进程 , 那些 地 图 、 文 件 、 照 片 和 其 他 文物 ,是 我 们 国家 历史 的 一 个 形象 的 表述 , 这 些 档 案 将 永远 把 这 段 历史 带 入 到 
直布罗陀 人 的 生命 之 中 。” 

英国 国家 档案 馆 为 GNA 推荐 了 Preservica 的 数字 保存 和 访问 软件 。GNA 负责 人 Anthony Pitaluga 在 英国 国家 档案 馆 参 
加 了 一 些 数字 保存 研讨 会 , 阅读 了 相关 文件 ， 并 最 终 选 定 了 Preservica 系统 。 

GNA 选择 了 在 AWS 上 托管 的 Preservica 云 版 本 ， 以 满足 对 直布罗陀 丰富 的 数字 存档 的 摄取 、 处 理 、 安 全 存储 、 管 理 和 
访问 等 所 有 要 求 。 此 外 , 使 用 云 中 托管 的 保护 和 访问 系统 意味 着 档案 不 需要 购买 本 地 服务 器 和 存储 ， 从 而 成 为 一 种 非常 具有 
成 本 效益 上 且 价格 合理 的 选择 。 使 用 Preservica, GNA 建立 了 一 个 可 搜索 的 数据 库 , 提取 并 导入 了 20 多 万 条 记录 。 


(编译 自 : https://preservica.com/resources/press-releases/gibraltar-national-archives-chooses-preservica-to-safeguard-its-rich-heritage-1) 
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